智能论文笔记

Multi-View Reconstruction using Signed Ray Distance Functions (SRDF)

Pierre Zins , Yuanlu Xu , Edmond Boyer , Stefanie Wuhrer , Tony Tung

分类：计算机视觉

2022-08-31

在本文中，我们解决了多视图3D形状重建的问题。尽管最近与隐式形状表示相关的最新可区分渲染方法提供了突破性的表现，但它们仍然在计算上很重，并且在估计的几何形状上通常缺乏精确性。为了克服这些局限性，我们研究了一种基于体积的新型表示形式建立的新计算方法，就像在最近的可区分渲染方法中一样，但是用深度图进行了参数化，以更好地实现形状表面。与此表示相关的形状能量可以评估给定颜色图像的3D几何形状，并且不需要外观预测，但在优化时仍然受益于体积整合。在实践中，我们提出了一个隐式形状表示，SRDF基于签名距离，我们通过沿摄像头射线进行参数化。相关的形状能量考虑了深度预测一致性和光度一致性之间的一致性，这是在体积表示内的3D位置。可以考虑各种照片一致先验的基础基线，或者像学习功能一样详细的标准。该方法保留具有深度图的像素准确性，并且可行。我们对标准数据集进行的实验表明，它提供了有关具有隐式形状表示的最新方法以及传统的多视角立体方法的最新结果。

translated by 谷歌翻译

Vertebrae localization, segmentation and identification using a graph optimization and an anatomic consistency cycle

Di Meng , Edmond Boyer , Sergi Pujades

分类：计算机视觉

2021-10-23

CT图像中的椎骨定位，分割和识别是众多临床应用的关键。尽管近年来，深度学习策略已为该领域带来了重大改进，但由于其在培训数据集中的代表性不佳，过渡性和病理椎骨仍在困扰大多数现有方法。另外，提出的基于非学习的方法可以利用先验知识来处理这种特定情况。在这项工作中，我们建议将这两种策略结合起来。为此，我们引入了一个迭代循环，在该循环中，单个椎骨被递归地定位，分割和使用深网鉴定，而使用统计先验则实施解剖一致性。在此策略中，通过在图形模型中编码其配置来处理过渡性椎骨识别，该模型将局部深网预测汇总为解剖上一致的最终结果。我们的方法在Verse20挑战基准上取得了最新的结果，并且优于过渡性椎骨的所有方法以及对Verse19挑战基准的概括。此外，我们的方法可以检测和报告不满足解剖学一致性先验的不一致的脊柱区域。我们的代码和模型公开用于研究目的。

translated by 谷歌翻译

Neural Human Deformation Transfer

Jean Basset , Adnane Boukhayma , Stefanie Wuhrer , Franck Multon , Edmond Boyer

分类：计算机视觉

2021-09-03

我们认为人类变形转移问题，目标是在不同角色之间的零件姿势。解决此问题的传统方法需要清晰的姿势定义，并使用此定义在字符之间传输姿势。在这项工作中，我们采取了不同的方法，将角色的身份转换为新的身份，而无需修改角色的姿势。这提供了不必在3D人类姿势之间定义等效性的优点，这在姿势往往会根据执行它们的角色的身份而变化并不简单，并且由于它们的含义是高度上下文的。为了实现变形转移，我们提出了一种神经编码器 - 解码器架构，其中仅编码身份信息以及解码器在姿势上调节的位置。我们使用姿势独立表示，例如等距 - 不变形状特征，以表示身份特征。我们的模型使用这些功能来监督从变形姿势的偏移预测到转移结果。我们通过实验展示了我们的方法优于最先进的方法，定量和定性，并且更好地推广在训练期间没有看到。我们还介绍了一个微调步骤，可以为极端身份获得竞争力的结果，并允许转移简单的衣服。

translated by 谷歌翻译

Data-Driven 3D Reconstruction of Dressed Humans From Sparse Views

Pierre Zins , Yuanlu Xu , Edmond Boyer , Stefanie Wuhrer , Tony Tung

分类：计算机视觉

2021-04-16

最近，数据驱动的单视图重建方法在建模3D穿着人类中表现出很大的进展。然而，这种方法严重影响了单视图输入所固有的深度模糊和闭塞。在本文中，我们通过考虑一小部分输入视图并调查从这些视图中适当利用信息的最佳策略来解决这个问题。我们提出了一种数据驱动的端到端方法，其从稀疏相机视图重建穿着人的人类的隐式3D表示。具体而言，我们介绍了三个关键组件：首先是使用透视相机模型的空间一致的重建，允许使用人员在输入视图中的任意放置;第二个基于关注的融合层，用于从多个观点来看聚合视觉信息;第三种机制在多视图上下文下编码本地3D模式。在实验中，我们展示了所提出的方法优于定量和定性地在标准数据上表达现有技术。为了展示空间一致的重建，我们将我们的方法应用于动态场景。此外，我们在使用多摄像头平台获取的真实数据上应用我们的方法，并证明我们的方法可以获得与多视图立体声相当的结果，从而迅速更少的视图。

translated by 谷歌翻译

Data-Driven Linear Complexity Low-Rank Approximation of General Kernel Matrices: A Geometric Approach

Difeng Cai , Edmond Chow , Yuanzhe Xi

分类：机器学习

2022-12-24

A general, {\em rectangular} kernel matrix may be defined as $K_{ij} = \kappa(x_i,y_j)$ where $\kappa(x,y)$ is a kernel function and where $X=\{x_i\}_{i=1}^m$ and $Y=\{y_i\}_{i=1}^n$ are two sets of points. In this paper, we seek a low-rank approximation to a kernel matrix where the sets of points $X$ and $Y$ are large and are not well-separated (e.g., the points in $X$ and $Y$ may be ``intermingled''). Such rectangular kernel matrices may arise, for example, in Gaussian process regression where $X$ corresponds to the training data and $Y$ corresponds to the test data. In this case, the points are often high-dimensional. Since the point sets are large, we must exploit the fact that the matrix arises from a kernel function, and avoid forming the matrix, and thus ruling out most algebraic techniques. In particular, we seek methods that can scale linearly, i.e., with computational complexity $O(m)$ or $O(n)$ for a fixed accuracy or rank. The main idea in this paper is to {\em geometrically} select appropriate subsets of points to construct a low rank approximation. An analysis in this paper guides how this selection should be performed.

translated by 谷歌翻译

CP-AGCN: Pytorch-based Attention Informed Graph Convolutional Network for Identifying Infants at Risk of Cerebral Palsy

Haozheng Zhang , Edmond S. L. Ho , Hubert P. H. Shum

分类：计算机视觉 | 机器学习

2022-09-06

早期预测在临床上被认为是脑瘫（CP）治疗的重要部分之一。我们建议实施一个基于一般运动评估（GMA）的CP预测的低成本和可解释的分类系统。我们设计了一个基于Pytorch的注意力图形卷积网络，以识别从RGB视频中提取的骨骼数据中有CP风险的早期婴儿。我们还设计了一个频率模块，用于在过滤噪声时学习频域中的CP运动。我们的系统仅需要消费级RGB视频进行培训，以通过提供可解释的CP分类结果来支持交互式时间CP预测。

translated by 谷歌翻译

Ant Colony Optimization for Mining Gradual Patterns

Dickson Odhiambo Owuor , Thomas Runkler , Anne Laurent , Joseph Orero , Edmond Menya

分类：神经与进化计算

2022-08-31

逐渐的模式提取是数据库中（KDD）知识发现中的一个字段，该领域将数据集的属性之间的相关性映射为逐渐依赖性。逐渐的依赖性可以采用“较高的属性k，较小的属性L”的形式。在本文中，我们提出了一种使用概率方法来学习和提取频繁逐渐模式的蚂蚁菌落优化技术。通过对现实世界数据集的计算实验，我们将基于蚂蚁的算法的性能与现有的渐进项目集提取算法进行了比较，我们发现我们的算法表现优于后期，尤其是在处理大型数据集时。

translated by 谷歌翻译

HTML版本

A Two-stream Convolutional Network for Musculoskeletal and Neurological Disorders Prediction

Manli Zhu , Qianhui Men , Edmond S. L. Ho , Howard Leung , Hubert P. H. Shum

分类：计算机视觉

2022-08-18

肌肉骨骼和神经系统疾病是老年人行走问题的最常见原因，它们通常导致生活质量降低。分析步行运动数据手动需要训练有素的专业人员，并且评估可能并不总是客观的。为了促进早期诊断，最近基于深度学习的方法显示了自动分析的有希望的结果，这些方法可以发现传统的机器学习方法中未发现的模式。我们观察到，现有工作主要应用于单个联合特征，例如时间序列的联合职位。由于发现了诸如通常较小规模的医疗数据集的脚之间的距离（即步幅宽度）之类的挑战，因此这些方法通常是优选的。结果，我们提出了一种解决方案，该解决方案明确地将单个关节特征和关节间特征作为输入，从而使系统免于从小数据中发现更复杂的功能。由于两种特征的独特性质，我们引入了一个两流框架，其中一个流从关节位置的时间序列中学习，另一个从相对关节位移的时间序列中学习。我们进一步开发了一个中层融合模块，以将发现的两个流中发现的模式结合起来进行诊断，从而导致数据互补表示，以获得更好的预测性能。我们使用3D骨架运动的基准数据集涉及45例肌肉骨骼和神经系统疾病的患者，并实现95.56％的预测准确性，效果优于最先进的方法，从而验证了我们的系统。

translated by 谷歌翻译

A Feasibility Study on Image Inpainting for Non-cleft Lip Generation from Patients with Cleft Lip

Shuang Chen , Amir Atapour-Abarghouei , Jane Kerby , Edmond S. L. Ho , David C. G. Sainsbury , Sophie Butterworth , Hubert P. H. Shum

分类：计算机视觉

2022-08-01

唇裂是一种先天性异常，需要专家手术修复。外科医生必须具有丰富的经验和理论知识才能进行手术，并且已经提出了人工智能（AI）方法来指导外科医生改善手术结局。如果可以使用AI来预测修复的唇唇的外观，那么外科医生可以将其用作辅助手术技术来调整其手术技术并改善结果。为了在保护患者隐私时探索这个想法的可行性，我们提出了一种基于深度学习的图像镶嵌方法，该方法能够覆盖唇裂，并产生唇彩，而无需裂缝。我们的实验是在两个现实世界中的裂口数据集上进行的，并由专家cleft唇外科医生评估，以证明该方法的可行性。

translated by 谷歌翻译

Interaction Mix and Match: Synthesizing Close Interaction using Conditional Hierarchical GAN with Multi-Hot Class Embedding

Aman Goel , Qianhui Men , Edmond S. L. Ho

分类：计算机视觉

2022-07-23

由于字符之间的复杂和多样化的交互作用，合成的多字符交互是一项艰巨的任务。特别是，在产生诸如舞蹈和战斗之类的紧密互动时，需要精确的时空对齐。现有的生成多字符相互作用的工作集中在给定序列中生成单一类型的反应运动，从而导致缺乏各种结果动作。在本文中，我们提出了一种新颖的方式来创建现实的人类反应动作，通过混合和匹配不同类型的紧密相互作用，在给定数据集中未呈现。我们提出了一个有条件的层次生成对抗网络，具有多热的类嵌入，以从领导者的给定运动序列中生成追随者的混合和匹配反应性运动。实验是对嘈杂（基于深度）和高质量（基于MOCAP）的交互数据集进行的。定量和定性结果表明，我们的方法的表现优于给定数据集上的最新方法。我们还提供了一个增强数据集，具有逼真的反应动作，以刺激该领域的未来研究。该代码可从https://github.com/aman-goel1/imm获得

translated by 谷歌翻译